弱监督的视频对象本地化(WSVOL)允许仅使用全局视频标签(例如对象类)在视频中找到对象。最先进的方法依赖于多个独立阶段,其中最初的时空建议是使用视觉和运动提示生成的,然后确定和完善了突出的对象。本地化是通过在一个或多个视频上解决优化问题来完成的,并且视频标签通常用于视频集群。这需要每件型号或每类制造代价高昂的推理。此外,由于无监督的运动方法(如光流)或视频标签是从优化中丢弃的,因此本地化区域不是必需的判别。在本文中,我们利用成功的类激活映射(CAM)方法,该方法是基于静止图像而设计的。引入了一种新的时间凸轮(TCAM)方法,以训练一种判别深度学习(DL)模型,以使用称为CAM-Temporal Max Max Pooling(CAM-TMP)的聚集机制在视频中利用时空信息,而不是连续的凸轮。特别是,感兴趣区域的激活(ROI)是从审计的CNN分类器生成的CAM中收集的,以构建Pseudo-Labels构建用于训练DL模型的伪标记。此外,使用全局无监督的尺寸约束和诸如CRF之类的局部约束来产生更准确的凸轮。对单个独立帧的推断允许并行处理框架片段和实时定位。在两个挑战性的YouTube-Objects数据集上进行无限制视频的广泛实验,表明CAM方法(在独立框架上训练)可以产生不错的定位精度。我们提出的TCAM方法在WSVOL准确性方面达到了新的艺术品,并且视觉结果表明它可以适用于后续任务,例如视觉对象跟踪和检测。代码公开可用。
translated by 谷歌翻译
仅使用诸如图像类标签的全局注释,弱监督学习方法允许CNN分类器共同分类图像,并产生与预测类相关的感兴趣区域。然而,在像素水平的任何引导下,这种方法可以产生不准确的区域。已知该问题与组织学图像更具挑战,而不是与天然自然的图像,因为物体不太突出,结构具有更多变化,并且前景和背景区域具有更强的相似之处。因此,用于CNNS的视觉解释的计算机视觉文献中的方法可能无法直接适用。在这项工作中,我们提出了一种基于复合损耗功能的简单而有效的方法,可利用完全消极样本的信息。我们的新损失函数包含两个补充项:第一次利用CNN分类器收集的积极证据,而第二个利用来自CNN分类器的积极证据,而第二个互联网将利用来自训练数据集的完全消极样本。特别是,我们用解码器装备预先训练的分类器,该解码器允许精制感兴趣的区域。利用相同的分类器来收集像素电平的正面和负证据,以培训解码器。这使得能够利用自然地发生在数据中的完全消极样本,而没有任何额外的监督信号,并且仅使用图像类作为监督。与几种相关方法相比,在冒号癌的公共基准GLAS和使用三种不同的骨架的CONELYON16基于乳腺癌的CAMELYON16基准测试,我们展示了我们方法引入的大量改进。我们的结果表明了使用负数和积极证据的好处,即,从分类器获得的效益以及在数据集中自然可用的那个。我们对这两种术语进行了消融研究。我们的代码公开提供。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译